对话智谱AI张鹏:对标OpenAI发布视频模型,这是AGI必要一环
AI未来指北作者 郭晓静
编辑 苏扬OpenAI发布Sora之后的短短半年内,国内视频生成赛道可以明显感受到三股力量:1、从一开始就聚焦模型生成的创业公司,比如Pixverse。2、短视频公司,比如快手的可灵大模型。3、基座大模型公司,比如智谱AI。
但是这三股力量中,备受瞩目的“大模型六小龙”,在视频生成赛道似乎跟进并不积极。智谱AI7月26日上线视频生成产品“清影”,成为六小龙中动作最快的那一个。
目前评价模型生成产品,主要看模型可控性--是否所要即所得;生成视频的动作幅度;前后画面的一致性;视频场景的细节丰富度。
从用户端来说,视频生成的响应速度和一次性生成的长度,也是最直观的感受模型性能的指标。
支持“智谱清影”的模型底座,来源于智谱AI自研的CogVideoX模型——智谱AI在2021年就布局的多模态研究的一角。如今,CogVideoX的推理速度已经提升了6倍,“智谱清影”生成6秒视频的时间,理论上只要30秒左右,清晰度可达1440x960(3:2)。
“清影”依托于智谱大模型团队自研打造的视频生成大模型 CogVideo,来源:智谱AI
但是在越来越“卷”的视频生成产品中,似乎特点不是特别突出。在发布会上,智谱AI CEO张鹏也坦诚地表达:“清影(Ying)功能上线主要是阶段性成果,要说它多么完美还不是,主要给大家汇报一下我们的进展,让大家体验一下目前视频生成这样的事情在每人可用的前提下能做到什么程度,而不是关在实验室里。”
智谱AI将自己定义为基础模型公司,为何必须做视频生成大模型?与聚焦做垂直的视频生成模型的公司、短视频公司,在产品定位上有何不同?
智谱AI从模型产品上,对标目标一直是OpenAI,从下图可以看出,视频模型在整体模型矩阵中不可或缺。
智谱与OpenAI产品线对比,来源:智谱AI
张鹏也在发布会现场对腾讯科技说:“视频生成并不是孤立来看,而是放到整个技术和产品发展路线当中来看。我们认为它是多模态路径中必不可少的闭环。至于是否会作为一个商业化产品来落地,只要用户有需求,答案是肯定的。”
对于如何评价另外两股力量在视频生成领域的强有力竞争,张鹏认为:“殊途同归。”
在被问到,这么多视频生成产品被发布出来,未来是不是会和大语言模型今天面临的竞争态势相似,甚至同质化的问题时,张鹏笑称:“我的直觉是这样的。”
清影上线的定价策略是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。视频模型的训练及推理成本都十分高,这种付费策略显然对于成本的打平杯水车薪。为何会采取这样的定价策略,是为了测试用户的付费意愿吗?
对此,张鹏坦诚回应腾讯科技:“说实话我们也不知道商业化策略未来会怎么样,或什么形式最好。目前所谓的收费策略更多的是一种早期的尝试,试试看市场和用户的反馈,后面会及时调整。”
生成式AI自ChatGPT上线开始,就被赋予了“移动互联网的之后的下一个科技浪潮”,甚至是新的工业革命的期待,“超级App”在这个背景下,被寄予了厚望,新产品上线,张鹏也再次遇到了“何时才能看到超级App”的问题。
张鹏笑笑说:“与其不断预测这件事,还不如踏踏实实一点一点做这件事。”
以下为对话精编:
Q:最近除了智谱之外,很多都发布了新的生成式视频的产品,智谱的优势在哪里?未来的AI视频有哪些重点优化迭代的地方?
张鹏:这有几个层面的问题:第一是技术层面,视频本身的可控性是非常大的要求。如果输入信号本身就是视频信号,生成后面新的内容可控性相对容易一些。
今天展示的可控性,除了这个以外还包括从文本到视频的可控性,你可以理解为是更通用的可控性。我们认为内容生成,尤其是视频内容生成将来绝大部分情况下还是由人用语言的方式来控制。从自然语言到视频生成,这才是真正的可控,更高层面的可控,这是技术层面的事情。
第二个层面就是安全,因为视频信号里包括的内容细节更多,要保证生成出来的东西符合你的要求,而且还保证安全,可控肯定是非常重要的一个点,所以我相信所有做视频生成团队都很很重视安全。
最后,生成出来的视频如果能做到商业化应用,可控也是必要的条件,你要非常精准表达创作者意图,而且要让大家买单,可控也是非常重要的一件事。所以从几个层面来说,可控这件事都是需要花大力气做的。
Q:OpenAI的Sora一直都没有开放,我们国内的视频模型,为何有勇气开始对公众开放?
张鹏:首先OpenAI Sora的演示效果还是不错的,刚才我也提到了,我们今天还是一个初步的阶段性成果,还达不到像Sora演示出来那么好的、那么长的视频。
我们从来很坦诚承认我们和OpenAI、和世界顶级水平之间的差距。但是,虽然承认差距,但是技术探索这条路还得自己走。我们一直也在走自己的路,很多时候我们是在不断用自己的方式往前追赶,比如怎么把视频生成算力成本降下来,响应速度提升上去,我们在追求技术高度的同时,也同步追求技术的可普及性和成本。
Q:成本是多少?
张鹏:这个是在大家用起来以后统计意义上的事情。
Q:智谱作为基座模型公司,推出视频生成模型的目标和单视频赛道公司是否有不同?是否会作为单独的产品做商业化落地?看到目前的定价策略,也很难打平成本,是在做用户的付费意愿测试?
张鹏:首先回答第一个问题,为什么要做多模态这件事,视频生成并不是孤立来看,是放到整个技术和产品发展路线当中来看,我们认为它是多模态或者AGI多模态路径当中的一环,当然有很多理由,今天不展开讲。
我们认为它是AGI里必须要走的路径,从产品角度来讲会不会单独成为一个单独的产品去商业化落地,去产生价值,我觉得这是肯定的,只要市场有需求,作为一个公司就应该做商业化的事情,这是两件事。
第三个问题,商业化策略,说实话我们也不知道商业化策略未来会怎么样走或者什么样的形式最好,目前所谓收费的策略更多的是一种自己的尝试,也是比较早期的尝试,想看看看市场和用户的反馈,后面会及时调整,根据大家的反馈调整,也许大家喜欢这样,也许不喜欢这样,我们也不知道,大家用脚投票吧。
除了C端,我们也有B端API按价格收取费用。刚才也反复强调,现在这个东西还是比较初级的尝试,人人可用、付费加速,当然我们也非常欢迎大家吐槽。主要是因为第一目前来讲,虽然已经做到这个程度,但成本还是比较高,我相信所有的友商把这个东西不开放出来,很大程度也是因为成本的问题,顶不顶得住很多人来用。
Q:今天凌晨也看到OpenAI发了AI搜索产品,国内外AI应用的推出速度都比较快,智谱如何看待超级APP这件事?
张鹏:这是个思路问题。跟我们对AI如何赋能个人和企业的理念有关系,清言APP我们定位成AI助手。助手意思是帮你解决工作学习生活当中的实际的问题,是要帮你做生产力提效、学习效率提升、工作便利提升等这些方面的事情。
简单来说就是两个字—使用,我们做所有事情都是往实际效用方向走,可能你会觉得它好像不是那么好玩,不是那么像娱乐工具一样吸引你。
但实际上我们认为所谓的超级APP可能它不一定是这样的超级,我们也是循序渐进、在潜移默化过程当中让大家真的爱上使用、习惯上使用这个工具。所以可能这个改变并不一定是阶梯状或者阶跃式改变,可能是潜移默化的改变。
从时间维度来说,过去这半年多时间,大家的使用习惯已经改变了非常非常多,只不过没有让你一觉醒来就有改变的感觉,这是人感知上的误差,我们很期待在这样的时代通过这样的效率工具,让大家在不知不觉中改变自己的生活状态,有AI+人生的应用和你的生活工作融合在一起的感觉,这也是我们倡导的人机协同的发展方向。
Q:超级APP多久能诞生,是三年还是五年?
张鹏:这个不太好预估,现在都是基于现状做出的预测,与其不断预测这件事,还不如踏踏实实一点一点做这件事。
Q:智谱和bilibili、华策影视都有合作,AI会不会取代长视频拍摄?
张鹏:这个问题从Sora出现以后一直在讨论,国外这件事上已经引起了很大的影响,包括好莱坞罢工等,肯定大家已经意识到这件事对传统影视行业的影响。包括B站、华策和央视,甚至有一次我去了北影学院和老师们也在聊这件事。
大家对这件事的看法,和我个人从宏观来讲是比较一致的,从技术发展角度来说大家认为这是很好的事情,是很重要的方向,对影视行业的变化是有积极的意义。但是目前来讲也觉得如果能把它用在直接面向最终观众的生产过程当中可能还不是太够,所以用来做一些辅助的工作是可以的,甚至是做一些小规模的创作,有些专业玩家玩出来的短片,这个可能还是OK的,但真正要达到改变电影的制作等,可能还得要有一段路去走。
Q:今年年初您提到今年重点是在落地产业上,现在智谱的布局既有B端又有C端,技术上也是语言模型、多模态都有,请教一下我们的资金,包括您的精力怎样分配?目前有重点吗?营收、技术侧这种平衡问题有哪些新的考虑吗?
张鹏:这是一个很好的问题。确实做大模型这件事太烧钱了,而且确实也面临市场上的需求,你要商业化落地,所以我们是分层次去做。最基础的技术突破创新是我们消耗资源最大的部分,商业化是在这个基础之上推进的,但商业化这个事情在我们看来还是根源于你的技术创新和驱动做这件事,我们不太希望说研究是一张皮,商业化、产品是另外一张皮。
这样的割裂对企业来讲会面临一个问题,就是怎么样分配资源。我们希望是贯通的,商业化过程当中,服务客户过程当中就是以我们的技术和产品核心能力驱动的,客户需求和反馈是我们技术往前创新突破和迈进的驱动力,让两者比较好的闭环,我们努力做到这样的事情。
所以无论我们做2C还是2B都是这样的思路,有些事情可能并不在我们聚焦的方向,这可能会交给生态里的合作伙伴做。
Q:清影(Ying)的种子用户画像和重点关注的场景?有没有专门为种子用户做更多的优化?
张鹏:线上电商营销、短视频等自媒体的创作需求,这些是目前比较明显的,但是我相信肯定不仅止于这些客户。对于这类客户我们也有这样的计划,也是大家用手投票,我们看哪些需求相对比较集中,会针对比较集中的需求做一些优化,目前是一个阶段性的东西。
下一步往哪个方向发展,哪些事情会成为技术突破和落地应用最关键的问题,其实我们有很多项目,不可能全部做,我们会集中在真正解决问题的路径上做,也是回答刚才那位老师的问题,希望它是这样一个闭环,从上到下,从下而上这样一个闭环,我们会做一些具体的规划,但看最终的需求是什么。
Q:Sora作为视频生成模型出来之后,“世界模型”这个概念也引起了外界的关注,您如何理解世界模型和视频模型的关系?
张鹏:所谓的世界模型还没有确切的定义。我们的观点和OpenAI比较相近,对于人的大脑来说,或者人对世界的认知,除了语言以外,视觉、听觉、嗅觉各种各样的感官是综合在一起的,人为什么看似学习的速度、效率没有计算机那么快,但是人的智能比计算机高,就是在于人的大脑的学习过程更复杂,不同模态之间信号的互相验证和交叉、知识的渗透,可能效率会更高,这个过程中还需要研究很多的问题。最终我们跟OpenAI的观点一致,所谓世界模型的路径上,跨模态是非常重要的事情,可能还有其他的事情需要做,一步一步来吧。
Q:什么时候开始做视频模型?现在市场上对做视频模型大概分成三派,纯做视频模型的公司,比如Pixverse,还有短视频公司比如快手,模型厂商OpenAI包括我们智谱,在这些不同的背景基因的公司来看,大家都发布这么多产品,用户应该怎么样选?
张鹏:先回答第一个问题,做视频模型这件事往前追溯,今天发的短片是我用的CogVideoX,那工作在原来生成图像基础上做了连续图像,连起来就是做视频,当然因为数据、算力各个方法上的不成熟,做的效果相对比较有限。从2021年开始就布局这件事,这个过程当中也不断积累其他相关的东西。
为什么会有一段时间会转去做其他的事情?这就跟第二个问题有关,你说这三大类里,作为模型厂商,做语言模型再转过去做这件事,为什么会这样?我们认为本身做大模型这件事最终目标想要实现AGI的目标,本质上还是在于如何对现实世界里的信号、数据进行提炼、压缩、学习的过程,这个事情可能语言是密度最高的,相对来说比较容易,而且是人机交互当中非常重要的环节。
能让它听懂人类的自然语言,这件事是非常重要的一个点,最简单的可控是什么,就是我说什么模型做什么,这叫可控,所谓我说什么模型做什么这件事就强烈依赖于模型能不能准确理解这个内容,这是做语言模型转去做多模态模型的初衷,就是说我先有这样一个抽象层面、宏观层面的能力,对世界的建模和理解,把它从宏观的层面,抽象的层面,从上到下降维到视觉信号,是从上到下的。
我个人理解,可能不完全正确,从视频厂商或者纯粹做视觉的转去做模型,他们可能是从下而上,是另外一个路径看这件事,是沿着视觉信号这个路线做这件事。但这两个事情有对错吗,不一定,前一段时间我们看一篇论文,单模态的建模,语言模态的建模、跨模态的建模,最终会走向本质的物理世界统一的表示,大家追求的是同一个真理,只是走不同的路而已,可能是这样一个结局。
Q:密集发布了这么多视频产品,最终竞争态势会和大语言模型一样吗?甚至是产品趋同?
张鹏:其实这个事真不太好判断,但我第一反应,我大脑系统一在工作,系统二在休息,大概率会和语言模型差不多,大概会这样,这是我的直觉。